O arquivo com os dados das escolas podem ser baixados através do portal dados.gov.br: http://dados.gov.br/dataset/microdados-do-censo-escolar Apesar do banco mais atual ser de 2015, utilizaremos os dados de 2014, pois é o ano mais atual disponível para o ENEM. Após descompactado, os dados sobre as escolas estão na pasta "Censo Escolar Educação Básica 2014/DADOS", em formato .csv Para lê-lo basta delimitar o separador como "|", e usar o argumento "header=T", para manter os nomes de variáveis.


In [1]:
setwd("~/TCC/Dados/Censo Escolar Educação Básica 2014/DADOS")
escolas14 <- read.table("ESCOLAS.csv", sep="|", header = T)

Escolhendo os casos

Iremos selecionar os casos referentes às escolas que se identificaram como ensino médio profissional, regular, normal ou integrado. Além disso, serão selecionadas somente escolas com situação de funcionalmento = 1


In [7]:
escolas14 <- subset(escolas14, DESC_SITUACAO_FUNCIONAMENTO==1) #n == 190553
escolas14 <- subset(escolas14,  ID_REG_MEDIO_PROF == 1 | ID_REG_MEDIO_MEDIO == 1| 
                                ID_REG_MEDIO_NORMAL == 1 | ID_REG_MEDIO_INTEGRADO == 1) #=30822

Escolhendo as variáveis utilizadas

Serão escolhidas as variáveis com algum aspecto didádito, além de variáveis necessárias para juntar os bancos (Estado, município, etc.)


In [2]:
#ESCOLHENDO VARIÁVEIS----
#nv <- colnames(escolas14)
vars <- c("DESC_SITUACAO_FUNCIONAMENTO", "FK_COD_ESTADO", "FK_COD_MUNICIPIO", "ID_DEPENDENCIA_ADM", "DESC_CATEGORIA_ESCOLA_PRIVADA", 
"ID_LOCAL_FUNC_PREDIO_ESCOLAR", "ID_LABORATORIO_INFORMATICA", "ID_LABORATORIO_CIENCIAS", "ID_SALA_ATENDIMENTO_ESPECIAL",
"ID_QUADRA_ESPORTES_COBERTA", "ID_QUADRA_ESPORTES_DESCOBERTA", "ID_BIBLIOTECA", "ID_SALA_LEITURA", 
"ID_DEPENDENCIAS_PNE",
"ID_REFEITORIO", "ID_PATIO_COBERTO", "ID_PATIO_DESCOBERTO", "ID_AREA_VERDE", "NUM_SALAS_EXISTENTES", "NUM_SALAS_UTILIZADAS",
"NUM_EQUIP_TV", "NUM_EQUIP_DVD", "NUM_EQUIP_COPIADORA", "NUM_EQUIP_RETRO", "NUM_EQUIP_IMPRESSORA", 
"NUM_EQUIP_SOM", "NUM_EQUIP_MULTIMIDIA", "NUM_COMPUTADORES", "NUM_COMP_ADMINISTRATIVOS", "NUM_COMP_ALUNOS", 
"ID_INTERNET", "ID_BANDA_LARGA", "NUM_FUNCIONARIOS", "ID_ALIMENTACAO", "ID_AEE",
"ID_MOD_ATIV_COMPLEMENTAR",
"ID_MATERIAL_ESP_NAO_UTILIZA","ID_PROPOSTA_PEDAG_ALTERNANCIA")
escolas14 <- escolas14[vars]

Separando por categoria administrativa

Os dados das quatro categorias adiministrativas serão separados: 1 = Federal 2 = Estadual 3 = Municipal 4 = Particular Também serão selecionados os casos onde a categoria é publica (pra contrastar com a privada)


In [3]:
#SALVANDO----
setwd("C:/Users/Vini/Documents/TCC/Working/Nov2016")
write.csv2(escolas14, "[1]escolas14-limpo--v1--20-11-2016.csv")

escolas14Federal <- subset(escolas14, ID_DEPENDENCIA_ADM==1)
escolas14Estadual <- subset(escolas14, ID_DEPENDENCIA_ADM==2)
escolas14Municipal <- subset(escolas14, ID_DEPENDENCIA_ADM==3)
escolas14Particular <- subset(escolas14, ID_DEPENDENCIA_ADM==4)
escolas14Publica <- subset(escolas14, ID_DEPENDENCIA_ADM!=4)
#write.csv2(escolas14Federal, "[1]escolas14Federal--v1--20-11-2016.csv")
#write.csv2(escolas14Estadual, "[1]escolas14Estadual--v1--20-11-2016.csv")
#write.csv2(escolas14Municipal, "[1]escolas14Municipal--v1--20-11-2016.csv")
write.csv2(escolas14Particular, "[1]escolas14Particular--v1--20-11-2016.csv")
write.csv2(escolas14Publica, "[1]escolas14Publica--v1--20-11-2016.csv")

In [ ]: